Uvod
V projektu je analiza nesreč z rekreativnimi plovili. Deskriptivno so prikazane okoliščine nesreč, analitično pa je vključena še linearna regresija števila smrtnih nesreč v oziru na število registriranih plovil in povprečnega prihodka državljana ZDA. V shiny je še spletna aplikacija, ki prikazuje število nesreč v oziru na okoliščine nesreče.
Dodano je še nekaj splošno globalnih in lokalnih podatkov o regati Volvo ocean race (zgolj za potrebe predmeta, ne ker bi dodalo kakršnokoli vrednosti prvotni ideji nesreč).
Ta datoteka (v obliki notebook) je namenjena hitrejšemu zagonu. V njej je izpuščen en graf in en interaktivni graf. Za ogled celotne datoteke pojdi na LINK
Spletna povezava do virov podatkov in grob opis podatkov izvlečenih tabel:
2020 Recreational boating statistics
The ocean race The ocean race leta 1985/86
- TABELA: (Nesreče v posameznih mesecih)
- Mesec (Faktor)
- Smrtne nesreče (Število)
- Nesmrtne nesreče (Število)
- Vse nesreče (Število)
- Procent smrtnih nesreč (Število)
- Število smrti (Število)
- TABELA: (Nesreče v posameznih letih)
- Leto (Število)
- Smrtne nesreče (Število)
- Nesmrtne nesreče (Število)
- Število vseh nesreč (Število)
- TABELA: (Nesreče v posamezni zvezni državi)
- Zvezna država (Niz)
- Vse nesreče (Število)
- Smrtne nesreče (Število)
- Nesreče s poškodbami (Število)
- Nesreče le materialne škode (Število)
- Število smrti (Število)
- Število ponesrečencev (Število)
- Škoda v USD (Število)
- TABELA: (Število registriranih plovil)
- Leto (Število)
- Število smrti (Število)
- Število registriranih plovil (Število)
- Delež smrtnih izidov (Število)
- Število smrti v plovilih z motorjem (Število)
- Število registriranih motornih plovil (Število)
- Delež smrnih izidov z motornim plovilom (Število)
- TABELA: (Prihodek državljana ZDA)
- Leto (Število)
- Povprečni prihodek (Število)
- TABELA: (Vzrok nesreč)
- Vzrok (Niz)
- Število nesreč (Število)
- Število smrti (Število)
- Število poškodb (Število)
- Tip nesreče (Niz)
- TABELA: (Pregled regat Volvo ocean race)
- Leto (Število)
- Klasa (Niz)
- Število kol (Število)
- Število kratkih podregat (Število)
- Število prijavljenih ekip (Število)
- Kraj začetka (Niz)
- Kraj konca (Niz)
- Zmagovalna barka (Niz)
- Zmagovalni skipper (Niz)
- TABELA: (Pregled regate Volvo ocean race leta 1985/86)
- Kolo (Niz)
- Datum začetka (Datumski vektor)
- Kraj začetka (Niz)
- Kraj konca (Niz)
- Razdalja podregate (Število)
- Zmagovalna ladja (Niz)
- Zemlj. dolžina začetka (Število)
- Zemlj. širina začetka (Število)
- Zemlj. dolžina konca (Število)
- Zemlj. širina konca (Število)
Vizualizacija podatkov
Na zemljevidu ZDA je prikazano število smrtnih nesreč glede na posamezno zvezno državo.
Graf števila smrti v posameznem mesecu (v letu 2020)
Graf števila smrti v posameznem letu
Za dodatek si oglejmo malo regate
Graf, ki prikazuje povzetek regat “Volvo ocean race” v letih 1973-2018. Sam graf ne pove kaj dosti, osi pa so tudi prisilno postavljene.
Regresijska analiza
Grafa števila registriranih plovil in prihodka na prebivalca, ki bosta naši pojasnjevalni količini v regresijskem modelu.
Spodaj vidimo rezultat regresijske analize. Postavimo hipotezo \(H^{(1)}_0: \beta_1 =0\) in spotoma \(H^{(2)}_0: \beta_2 = 0\), kjer se \(\beta_1\) nanaša na število registriranih plovil, \(\beta_2\) pa na prihodek. Iz izhoda vidimo, da \(|t_1| < 1.96, |t_2| > 1.96\), zato ničelno hipotezo za registrirana plovila lahko zavrnemo.
Pod izhodom si oglejmo še diagnostiko predpostavk linearne regresije. \(R^2\) je zelo majhen, kar ni dober znak. Rdeča črta ostankov proti fittanim vrednostim je sicer dobra (ravna okoli 0), a nas motijo same vrednosti (ta preveri samo linearnost podatkov). Drugi in tretji graf sta (morda presentljivo) zadovoljiva.
##
## Call:
## lm(formula = Smrti ~ Prihodek + Registrirane, data = registracije)
##
## Residuals:
## Min 1Q Median 3Q Max
## -86.357 -20.868 -8.334 15.955 100.969
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -9.249e+02 8.168e+02 -1.132 0.273
## Prihodek 3.802e-03 3.062e-03 1.241 0.231
## Registrirane 1.166e-04 5.633e-05 2.070 0.054 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 48.68 on 17 degrees of freedom
## Multiple R-squared: 0.2679, Adjusted R-squared: 0.1817
## F-statistic: 3.11 on 2 and 17 DF, p-value: 0.07065
Omenimo, da bi lahko pri linearni regresiji eliminirali trend pri prihodku na prebivalca, da bi to spremenljivko logaritmirali. S tem pristopom ničelne hipoteze tudi za število registriranih plovil ne moremo zavrniti.